Echo Prompt論文
論文情報
タイトル:EchoPrompt: Instructing the Model to Rephrase Queries for Improved In-context Learning
発行日:2023年9月
著者:Rajasekhar Reddy Mekala, Yasaman Razeghi, Sameer Singh
所属:UCI
論文のポイント
数学の推論タスクでは、Let's iterate the question and also think step by stepが一番精度良い
読解タスクでは、Let's repeat the complete question and also think step by step https://scrapbox.io/files/65b4290a156b0800248e4feb.png
https://scrapbox.io/files/65b43879459f350025e06339.png
言い換えの実験では、読解タスクの言い換え精度が低く、パフォーマンスが悪化した
https://scrapbox.io/files/65b43c1ebde748002675b56c.png
論文を読んで感じたこと
自己質問という、批判的思考にややにた、内省的な思考を促すプロンプト
実際Section2-2では、繰り返しだけでなく、言い換えの実験もしている
しかし、以下のGSM8Kの正答率では、他のプロンプトの方が良いデータがある 実際にどうするか?
https://scrapbox.io/files/65b439efbb9b7200254c7ac2.png
モデルがGPT-4を使っていたり、LlamaIndexだったりと厳密な比較はできない
また、単独での評価のため、組み合わせるとどうなるか?はわからない
概要
言語モデルは、Zero-ShotやFew-Shotなど、推論時のプロンプト技術を積極的に採用することで、様々なタスクで印象的なパフォーマンスを達成しています。本研究では、モデルにクエリを言い換えさせるシンプルで効果的なアプローチであるEchoPromptを紹介します。EchoPromptは、標準およびCoT (Chain-of-Thought)を使用して、ゼロショットおよびフューショットのICL(コンテキスト内学習: In Context Learning)に適応します。実験結果は、EchoPromptが因果関係言語モデルの4つのファミリーで、これらの設定すべてにおいて顕著な改善をもたらすことを示しています。これらの改善は、数値推論(例:GSM8K、SVAMP)、読解(例:DROP)、論理推論(例:Coin Flip)のタスクなど、様々なタスクで観察されます。平均して、EchoPromptはcode-davinci-002のゼロショットCoTパフォーマンスを数値タスクで5%、読解タスクで13%向上させます。私たちは、EchoPromptの効果性に貢献する要因をアブレーション研究を通じて調査し、元のクエリとモデルによって生成された言い換えバージョンがそのパフォーマンス向上において重要であることを明らかにしました。私たちの実証的な結果は、EchoPromptが文脈内学習のパフォーマンスを向上させる効果的な技術であることを示しています。私たちは、パフォーマンスの向上を達成するために、EchoPromptを様々なベースラインのプロンプト戦略に組み込むことをお勧めします。 1. Introduction
大規模言語モデルは、プロンプトを用いた自然言語タスク解決を通じて、革命をもたらしています(ブラウンら、2020年)。この技術は、言語モデルを指示(ゼロショット)で条件付けするか、特定のタスクの小さなセットでプロンプトを強化する(フューショット)ことを含み、モデルがタスクを一般化し、効果的に応答する結果となります。
急速に進歩する研究領域は、これらのプロンプト手法を強化する技術を導入しています。特に、CoT (Chain-of-Thought)プロンプトは、推論タスクにおける言語モデルのパフォーマンスを高めるための強力な方法として登場しました。最小から最大プロンプト(ジョウ他、2022年a)や思考の木(ヤオ他、2023年)は、複雑な問題をよりシンプルなサブプロブレムに分解することで、思考連鎖をサポートしています。 標準的なプロンプトと思考連鎖プロンプトは、印象的な能力を示し、様々な分野で応用されていますが、論理的な誤り、記号のマッピングの問題、中間ステップの省略などにより、時には不正確な応答をもたらすことがあります。これは、クエリの様々な側面を適切に対処する上での潜在的な盲点を示しています
本論文では、EchoPromptというプロンプト戦略を提案します。これは、文脈内学習プロセスでの事前タスクとしてクエリの言い換えを組み込むことで、既存のプロンプトアプローチに基づいて構築されています。EchoPromptは、人間が問いに答える際に用いる、自己質問という固有の認知戦略から着想を得ています。問いに答える前にクエリを言語化することで、人間は認知的なチェックポイントを確立し、そうでなければ見逃されてしまうかもしれない誤解を明らかにします。Figure1は、ゼロショットCoT設定でのEchoPromptingの例を示しています。
https://scrapbox.io/files/65b423b0828110002664a613.png
コジマ他(2022年)によって提案されたアプローチでは、「ステップバイステップで考えてみましょう。」というプロンプトを使って思考連鎖を引き出し、その後「したがって、答えは」というプロンプトを使って答えを抽出しますが、私たちは最初のプロンプトを「質問を繰り返して、ステップバイステップで考えてみましょう。」や類似のテキストに変更します。この変更により、モデルは元のクエリのバージョンを生成するように導かれます。
私たちは、code-davinci-002、GPT-3.5-Turbo、Starcoder15B、Llama-13B、GPT-J-6Bなど、さまざまなサイズのモデルファミリーを使用して、様々なプロンプトのベースラインと比較して、私たちのアプローチを実証的に評価します。その結果、EchoPromptは、算数、読解、論理推論のタスクにおいて、言語モデルのパフォーマンスを大幅に向上させることが示されました。私たちは、標準的なプロンプトと思考連鎖プロンプトの両方で大幅なパフォーマンス向上を観察し、特に大規模な言語モデル(code-davinci-002、GPT-3.5-turbo)でのゼロショットシナリオと、より小さなモデル(Starcoder15B、Llama-13B、GPT-J-6B)での標準的なプロンプトで顕著です。たとえば、EchoPromptは、GPT-3.5(gpt-3.5-turbo)でのDROP(Census)におけるゼロショットCoTパフォーマンスを56.8%から67.3%に、GSM8Kでの思考連鎖プロンプトを75.1%から82.6%に向上させます。 私たちは、EchoPrompt技術の効果を深く理解するために、一連のアブレーション研究を行いました。まず、EchoPromptに起因する精度向上が言い換えられたクエリによるものだけであるかどうかを調査します。私たちの発見は、元のクエリと言い換えられたクエリの両方がパフォーマンス向上を達成するために不可欠であることを示しています。次に、元のクエリに言い換えバージョンを直接追加する代替手法を考慮することで、EchoPromptがクエリ拡張技術と見なされるかどうかを調査します。これら2つのアプローチ間で比較可能な結果を観察し、EchoPromptがクエリ拡張技術として機能することを示しています。さらに、EchoPromptに複数の言い換えを生成するよう指示することで、パフォーマンスがさらに向上するかどうかを検討します。興味深いことに、言い換えの数が増えるとわずかなパフォーマンスの低下が観察されます。これは、EchoPromptで達成される改善が、単により多くのトークンを生成することによるものではないことを示唆しています。最後に、クエリ内に無関係なテキストが存在する場合のEchoPromptのパフォーマンスを評価し、言い換えの中で無関係なテキストが複製されていても、改善が維持されていることを発見しました。私たちの研究は、EchoPromptが文脈内学習のパフォーマンスを根本的に改善し、複数のステージでプロンプトを利用する新たな複雑な技術の構築ブロックとして広く適用可能であることを示しています。 2. EchoPrompt
EchoPromptは、言語モデルがクエリのバージョンを生成し、それを解決する前に生成するように指導します。この技術の詳細な詳細は、以下の2つの小節で例を交えて説明されています。
2.1 ゼロショットEchoPrompt
ゼロショットプロンプトでは、標準的なアプローチは「したがって、答えは」という単一のプロンプトに依存して、直接答えを抽出します。対照的に、ゼロショットEchoPromptは、2段階のプロンプトプロセスを導入します。最初に、言語モデルは、「質問を繰り返しましょう。」というタスク非依存のプロンプトを使用してクエリを言い換えるように指示され、その後、ゼロショットプロンプトと同じプロンプトを使用して答えが抽出されます。
同様に、(コジマ他、2022年)によって提案されたゼロショットCoTでは、従来のアプローチは、「ステップバイステップで考えてみましょう。」というプロンプトを使用して、モデルが最終的な答えを生成する前に、その推論ステップを生成するように導きます。
しかし、EchoPromptを使用したゼロショットCoTでは、「質問を繰り返して、ステップバイステップで考えてみましょう。」のようなプロンプトを使用して、クエリ言い換えのサブタスクを導入します。この変更により、モデルは独自の言葉でクエリを生成し、その後、マルチホップ推論に従事するように促されます。答えの抽出に使用されるプロンプトは、ゼロショットとゼロショットCoTのシナリオの両方で一貫しています。Figure 1は、2つのアプローチ間の主要な違いを強調する例を示しています。表1、11は、このアプローチで実験したプロンプトの包括的な概要を提供しています。
https://scrapbox.io/files/65b424e58640250025c59fa1.png
https://scrapbox.io/files/65b4290a156b0800248e4feb.png
2.2 フューショットEchoPrompt
フューショット学習では、言語モデルにクエリに答える前に、特定の構造でテストクエリを言い換えるように教えます。これを実現するために、言い換えの構造とそれに対応する例示クエリへの回答を示す実例を提供します。我々は、モデルが正確なクエリを繰り返すことを教えることに加えて、次の形式で異なる言い換え構造を検討します。
複合文への言い換え:クエリは複数の節や句を含む複合文を用いて構成されます。
質問を先に置く言い換え:クエリは、最終的な質問を先頭に、それに続いて文脈情報を提示するように構成されます。
短く簡単な文への言い換え:クエリは、元の問題の文脈をよりシンプルで短い文に分解することで構築されます。
繰り返し:元のクエリ自体の繰り返しは、言い換えの基本的な形として機能し、私たちはそれを言い換え構造の一つとして考慮します。
Figure 2は、これらの言い換え形式によるクエリの例を示しています。
https://scrapbox.io/files/65b42a44c9a30d00247c1b1c.png
私たちは、これらの構造で実例の言い換えを生成するためにChatGPT(OpenAI、2021年)を使用します。この方法で、私たちの実例も自動的に、そして最小限の人間の努力で生成され、EchoPromptを使いやすくします。実例のための言い換えを生成するために使用されるプロンプトは、表10に示されています。
https://scrapbox.io/files/65b42a744d889800241e807d.png
Figure 3では、提案された複合文の言い換えの例を示しています。
https://scrapbox.io/files/65b42aca872ca500253fc498.png
標準的なプロンプトアプローチでの実例(青で強調表示)は、サンプルクエリとそれに対応する回答形式を示しています。したがって、モデルがテストクエリに出会うと、同様に応答します。しかし、EchoPromptの導入により、実例は追加のステップ、つまりクエリの言い換えを示すようになります。その結果、モデルがテストクエリに遭遇すると、言い換えたバリアントを生成し、元のクエリと生成されたクエリの再構成を使用してそれに答えます。
3. 評価設定
3.1 ベンチマーク
私たちは、自然言語処理タスクの範囲でEchoPromptを評価し、特に4つのタイプ、14の広く認識されているベンチマークに焦点を当てています。広範囲かつ徹底的な評価を確実にするために、因果関係言語モデルの4つのカテゴリで実験を行います。このセクションでは、私たちの評価設定の詳細について説明します。
数値推論:私たちは、(ウェイ他、2023年)の数値推論タスクを評価し、GSM8K(コッブ他、2021年)、SVAMP(パテル他、2021年)、AQUA-RAT(リン他、2017年)、SingleEqとMultiArithのサブセットなどの方法間で公平な比較を行います。さらに、私たちは、MMLUデータセット(ヘンドリックス他、2021a,b)の高校数学のサブセットと、摂動を含むクエリに特化しているGSMIC-4kデータセット(シー他、2023年)でEchoPromptのパフォーマンスを評価します。 論理推論:論理推論については、big-Bench(ガザル他、2013年)からの日付理解、シャッフルされたオブジェクト(3つのオブジェクトの追跡)タスク、LogiQA(リウ他、2020年)を評価し、コインフリッピングタスク(ウェイ他、2023年)のために2回の試行で1000のランダムサンプルを生成します。 読解:DROP(デュア他、2019年)の複数の数値サブセット(フットボール、非フットボール、センサス、ブレイク(ウルフソン他、2020年)などのQDMR開発サブセットを含む)を評価し、また算数ベンチマークに含めることができますが、クエリスタイルに基づいてSQuAD(ラジュプルカル他、2016年)と一緒にグループ化します。私たちは、DROP(デュア他、2019年)とSQuAD(ラジュプルカル他、2016年)の2つの標準的な読解ベンチマークでEchoPromptを評価します。DROPデータセットのフットボールサブセットは、「ヤード」というキーワードを使用したキーワードベースのフィルタリングを適用して作成され、センサスサブセットは、「人口」と「センサス」という用語を含むパッセージを選択的にフィルタリングして作成されました。 常識推論:常識推論については、単純なクエリを扱うが事実上の知識を必要とするタスクでEchoPromptのパフォーマンスを評価するために、StrategyQA(ゲバ他、2021年)、Winogrande(ai2、2019年)データセットを使用します。 3.2 言語モデル
実験においては、code-davinci-002(チェン他、2021年)をすべてのタスクにおける主要なモデルとして使用しています。このモデルは評価が無料であり、文脈内学習能力が強いためです。さらに、code-davinci-002のサイズに匹敵するGPT-3.5-Turboについても、データセットのサブセットで結果を提示します。また、StarCoder-15B(リ他、2023年)、Llama-13B(トゥルヴロン他、2023年)、GPT-J-6B(ワンとコマツザキ、2021年)など、より小さい公開モデルを合成的かつ単純なタスクで実験的に評価しています。 3.3 プロンプト
ゼロショットCoTプロンプト:(コジマ他、2022年)で提案されたように、ステージ1では「ステップバイステップで考えてみましょう。」というプロンプトを使用します。ステージ2では、タスクのタイプに応じて異なるプロンプトを使用して回答を抽出します。複数選択肢のタスクでは、「(a)から(e)までの答えは」というプロンプトを利用します。他のタスクでは、「したがって、答えは」というフレーズを使用します。
4 結果
私たちは、ゼロショット、ゼロショットCoT、フューショット、フューショットCoTプロンプト戦略に対するアプローチを広範囲に比較しました。Figure 4(および付録の表9)はEchoPromptの全体的な結果を提供しており、code-davinci-002およびその他のモデルに関する詳細な結果は付録Aに示されています。個々のモデルに関する所見は以下の通りです。
https://scrapbox.io/files/65b437bd931f30002402751c.png
Code-davinci-002:全体的に、EchoPromptはベースラインのプロンプト戦略に関係なくうまく機能していることが観察されます。特に、EchoPromptはゼロショットプロンプトシナリオで顕著な改善を示し、DROPやSQuADのサブセットなど、余分な情報を含む長いクエリ文脈のタスクにおいて特にそうです。たとえば、DROP(センサスサブセット)データセットでゼロショットプロンプトにおいて18.5%の精度向上が観察されました。同様に、EchoPromptはSVAMPでのゼロショットCoTで(7.4%の)精度向上を達成し、これにより全体的な精度がフューショットCoTプロンプトに匹敵するようになりました。しかし、基本的な方法でタスクを解決できない場合には、EchoPromptが改善をもたらさないことも注記する価値があります。たとえば、3つのオブジェクトを含むシャッフルオブジェクトタスクでは、EchoPromptはゼロショットパフォーマンスでわずかな低下を示しました(36.4%から35.2%へ)、これはランダム選択(33.3%)に近いものです。それにもかかわらず、モデルが部分的にタスクを解決できる場合のゼロショットCoTでは、かなりの精度向上が見られます(42.4%から58.2%へ)。また、複数選択肢の質問を含むタスク、例えばAQuA-RAT、MMLU、LogiQAでは、モデルが複数の選択肢の中から1つを選択する必要があるため、一貫した改善は観察されませんでした。
GPT-3.5-Turbo:Code-davinci-002に匹敵するサイズの非コードトレーニングモデルであるGPT-3.5-TurboのEchoPrompt技術のパフォーマンスを評価するために、いくつかのタスクで実験を行いました。詳細な結果は付録の表9にあります。全体として、これらの結果はcode-davinci-002での以前の実験と一致しています。例えば、EchoPrompt技術はフューショットCoTでGSM8Kの精度を75.1%から83.5%に大幅に向上させました。しかし、ゼロショットシナリオの読解タスク(DROP、SQuAD)ではパフォーマンスの低下が見られました。手動での質的分析の後、モデルが指示ベースの抽出可能な回答ではなく、記述的な回答を生成していることがわかり、これがパフォーマンスの低下の一部を説明しています。
https://scrapbox.io/files/65b438239f7c3400259a3b07.png
StarCoder-15B、Llama-13B、GPT-J-6B:同様に、公開されている小さなモデルであるStarCoder-15B、Llama-13B、GPT-J-6BでEchoPromptのパフォーマンスを評価しました。評価には、コインフリッピング、SingleOp、SVAMP、日付理解などのタスクが含まれます。これらの小さなモデルは、より難しい推論タスクを処理する能力が低いためです。このセットには、おもちゃのタスクと2つの比較的単純なデータセットが含まれており、Bigbenchでは日付理解が難しいタスクとみなされています。詳細な結果は付録の表9にあります。EchoPromptは標準的なプロンプトでパフォーマンスを向上させていますが、思考連鎖推論で一貫性のない結果が観察されました。これは、思考連鎖がより大きな言語モデルでの新たな現象と見なされているため、全く驚くべきことではありません(ウェイ他、2023年)。
表2では、フューショットCoTでのEchoPromptを、数値推論タスクの最先端とされる最小から最大プロンプトと比較しています。EchoPromptは言い換えられたクエリを利用するのに対し、最小から最大プロンプトは問題をサブプロブレムに分解し、これらを思考連鎖を用いて順次解決します。公平な比較のため、数値(GSM8K、SVAMP、Multiarith)と読解(DROP)タスクを、提案されたプロンプト(ウェイ他、2023年;周他、2022a年)を使用して評価します。EchoPromptは比較的単純なアプローチですが、3つの算数推論タスクのうち2つと、すべての読解サブセットで最小から最大プロンプトよりも優れています。
https://scrapbox.io/files/65b43879459f350025e06339.png
5 分析
EchoPromptの成功に寄与する要因を深く理解するために、以下のセクションで一連のアブレーション研究を行います: ゼロショットEchoPromptにおけるプロンプトの影響:
ゼロショット設定でクエリを言い換えるために使用されるプロンプトの影響を調査するため、標準的および思考連鎖プロンプトを含む算数タスクでさまざまなプロンプトを使用して実験を行いました。表1に示される結果は、選択したプロンプトに関係なく、EchoPromptがベースライン方法に比べて一貫してパフォーマンスを向上させることを示しています。しかし、ゼロショットCoT設定でさまざまなプロンプト選択によるパフォーマンスの違いを観察しています。「質問を繰り返して、ステップバイステップで考えてみましょう。(“Let’s reiterate the question and also think step by step.")」というプロンプトが最良の結果を得ます。
フューショットEchoPromptにおける言い換えの効果
フューショット設定では、明示的な回答生成を必要とする算数と読解タスクに焦点を当て、提案された言い換え構造のパフォーマンスをベースライン技術と比較して評価します。表3に示される結果は、パフォーマンスに変動があるにもかかわらず、すべての言い換え構造が標準的および思考連鎖プロンプトを上回っており、EchoPromptの有効性を強調しています。特筆すべきは、一貫して他の言い換え構造より優れるものはないということです。
言い換えられたクエリは自己完結しているか?:EchoPromptのパフォーマンス向上が言い換えられたクエリだけによるものか、それとも元のクエリと言い換えられたクエリの両方が不可欠かを評価するため、言語モデルが生成した言い換えを分離します。このプロセスには2つのステップが含まれます。まず、文脈内学習を通じて、以前と同じ方法と同じ実例を使用して言い換えられたクエリを生成します。次に、言語モデルに言い換えられたクエリ構造に合致する改訂された実例を提示します。モデルが答えるために提供されるのは、言い換えられたクエリだけです。表4の結果は、単独の言い換えがEchoPromptよりも一貫して低い精度をもたらすことを示しています。言い換えられたクエリは、ベースラインのプロンプトに比べて精度を向上させることができますが(複合文の言い換え)、それでもEchoPromptで達成される改善よりもかなり低いです。これは、EchoPromptにおける主な改善の源泉が2つのクエリバージョンの提供にあることを示唆しています。
言い換えと元のクエリの比較:言い換えられたクエリと元のクエリのBLEUスコアを比較します(付録の表16を参照)。さらに、言い換えられたクエリで保持されたトークンの割合を計算します(付録の表15を参照)。数値タスクでは、言い換えは元のクエリからの情報のほとんどを保持しています。しかし、読解タスクでの単独の言い換えでスコアにかなりの違いが見られます。特に、DROPのフットボールとブレイクのサブセットでは、元のクエリにトークン数の分布で大きなばらつきがあり、低品質の言い換え生成につながり、精度の大幅な低下が見られる可能性があります。
https://scrapbox.io/files/65b43c1ebde748002675b56c.png
言い換えの生成と増強:EchoPromptがクエリ増強技術と見なされるかを調べるため、EchoPromptのパフォーマンスを、言い換え(セクション5で生成)を使用して元の質問を直接増強することと比較します。EchoPromptでは、モデルは言い換えと回答の両方を同時に生成しますが、クエリ増強では、クエリがあらかじめ言語モデルに提供され、モデルは回答のみを生成します。付録の表18には、2つの設定の違いを強調する例が示されています。この実験の結果は表5で要約されており、両方のアプローチが精度の同等の改善をもたらすことを示しています。この結果は、EchoPromptを文脈内学習内のサブタスクとして導入するものの、言語モデルが両方のケースで同じ言い換えられたクエリと元のクエリを使用してクエリを解決するため、クエリ増強技術としても考えられることを示しています。
EchoPromptのための複数の言い換えの積み重ね
EchoPromptでのクエリ言い換えの利点を観察し、言語モデルが複数の言い換えを生成する効果を調査しました。表6で要約された結果は、言い換えの数が増えるにつれてパフォーマンスが低下することを示しています。生成された回答を手動で検討した際、思考連鎖推論での繰り返しの傾向が観察されました。この繰り返しの現象は、特に質問が長いマルチホップ推論を必要とする場合に顕著になります。付録の表17では、この発見を説明する例が示されています。この観察は予想通りで、EchoPromptで言い換えの数が増えると、タスクの焦点が思考連鎖推論から言い換えの生成に移行します。その結果、モデルは推論プロセスよりも要求された言い換えの数を生成することを優先します。
無関係なテキストへの頑健さ:最近の研究(シー他、2023年)は、CoT推論を含むさまざまなプロンプト方法を使用して、大規模言語モデル(LLMs)が無関係な情報に対して敏感であることを明らかにしました。直感的に、EchoPromptはクエリを言い換えるか、無関係な情報を含んで再生成するため、そのような気晴らしに特に影響されやすいかもしれません。EchoPrompt技術がそのような摂動が存在する場合でも機能するかどうかを評価するために、GSMIC-4kデータセット(シー他、2023年)でEchoPromptのパフォーマンスを研究しました。表7の評価結果は、摂動が存在しても、EchoPromptがすべてのプロンプト技術にわたって改善を維持することを示しています。
6 関連研究
プロンプト
大規模言語モデルの成功は、プロンプト技術を通じたタスクパフォーマンスの向上に関心を引き起こしています(ブラウン他、2020年)。最近の研究は、タスクベースの指示チューニングに焦点を当てていますが、全モデルの微調整(ラッフェル他、2020年; ウェイ他、2021年; サン他、2021年; ワン他、2022b年; ファン他、2022年)やタスク固有のパラメータの維持(リとリャン、2021年; レスター他、2021年)によって行われます。私たちの研究は、微調整を必要とせず、文脈内学習能力を向上させる一般的なプロンプトアプローチです。中間ステップ:言語モデルを使って推論タスクを解決するための中間ステップを生成するコンセプトは、トレーニング(ニエ他、2021年; ゼリックマン他、2022年)、ゼロショット(コジマ他、2022年)、フューショットプロンプト(ウェイ他、2022年)やアクションプランニング(ヤオ他、2022年)の文脈で広く検討されています。最近の研究は、問題の分解と、言語モデルにサブタスクに答えるように教え、最終的に複雑な問題に答えることに焦点を当てています(周他、2022a年; デュア他、2022年; ワン他、2022a年; 周他、2022b年)。EchoPromptはこれらのアプローチと直交しており、理論生成ではなく入力クエリを拡張するため、これらのプロンプト戦略のいずれにも簡単に拡張できます。
解釈可能性、一貫性、結果の修正:
別の関連する研究方向は、大規模モデルによって生成された理論の解釈可能性と一貫性を探求することです。最近の研究(イマニ他、2023年; ミャオ他、2023年; マダーンとヤズダンバクシュ、2022年)は、検証を通じて算数と推論タスクの解釈可能性を向上させるのに役立ちます。これらのアプローチはEchoPrompt技術と直接関連しているわけではありませんが、私たちがゼロショットシナリオでEchoPromptが有望な結果を示した思考連鎖プロンプトを利用しています。結果の修正の分野では、(ジャング他、2022年; ワン他、2023年; ヤオ他、2023年; ミャオ他、2021年; シェ他、2023年)などのアプローチが、算数、推論、コード生成タスク全体でパフォーマンスを向上させるために複数の生成された理論の間の一貫性を利用します。これらの基盤に基づいて、フィードバックループを使用する自己修正方法論(マダーン他、2023年; ジャン他、2023年; ハオ他、2023年; シン他、2023年)や多エージェント議論戦略(デュ他、2023年; コーエン他、2023年; フー他、2023年)が進化しています。EchoPromptは、複数の生成された回答を検討するのではなく、単一の理論生成に焦点を当てることで、これらのアプローチとは異なります。
7 制限事項
EchoPromptサブタスクは顕著な利点を提示していますが、いくつかの制限が存在します。いくつかの削減研究と質的な例を提供し、EchoPromptがいつより良く機能するかについての回答を提供していますが、特に標準的なプロンプトでEchoPromptがパフォーマンス向上をもたらす理由を説明することはできませんでした。さらに、私たちのアプローチでは、タスクを解決する前にクエリ全体を再生成することが含まれています。その結果、長いクエリを扱う際には、モデルが多くのトークンを生成する必要があり、これは計算要件の増加と時間遅延につながります。
8 結論
私たちは、EchoPromptという単純ながら効果的なアプローチを提案しました。これは既存のプロンプトアプローチに基づいて構築され、人間が考える方法に触発されて、クエリの言い換えを文脈内学習プロセスのサブタスクとして統合しています。これにより、言語モデルは問題を解決しようとする前にクエリを思い出すことができます。EchoPromptは、事前訓練された言語モデルで文脈内学習を強化する直接的な方法を提供し、微調整を必要とせずにパフォーマンス向上を達成するための単純で強力なアプローチです。
9 再現性に関する声明
私たちの主な結果は、Code-davinci-002とGPT-3.5-Turboに基づいており、これらは公開されているOpenAIのモデルです。再現性を高めるために、すべてのタスクに使用されたプロンプトを付録に含めています。また、近いうちにコードを公開する予定です。